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摘要 : [目的 ] 对 典型 科技 文献 语义 检索 系统 进行 调研 和 总 结 。[ 文 献 范围 ] 利 用 Web of 
Knowledge 和 Google Scholar 检索 semantic search 相关 文献 以 及 语义 检索 系统 的 参考 文 
献 和 研究 报告 。[ 方 法 ] 根 据 文 本 语义 处 理 程度 , 将 这 些 系统 归纳 为 语义 查询 扩展 的 检索 系统 、 
以 概念 或 实体 为 中 心 的 检索 系统 、 以 关系 为 中 心 的 检索 系统 和 面向 知识 发 现 的 检索 系统 ,[ 结 
果 ] 提 出 科技 文献 语义 检索 系统 的 基本 框架 ， 总 结 科技 文献 语义 检索 系统 功能 特点 。[ 局 限 ] 
缺少 对 语义 检索 系统 的 性 能 评测 。 [结论 ] 为 构建 面向 科技 文献 的 语义 检索 系统 提供 良好 借鉴 。 
关键 词 : 语义 检索 ”科技 文献 “文本 挖掘 
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Abstract: 
[Objective] To investigate and summarize the typical semantic retrieval system for scientific 
literature.[Coverage] Use literatures related to semantic search retrieved by Web of Knowledge or 
Google Scholar, references and research reports of semantic retrieval systems.[Methods] This paper 
classifies current systems into four categories according to the degree of semantic processing, 
semantic query expansion retrieval system, concepts or entities centered retrieval system, 
relation-centered retrieval system, and retrieval system for knowledge discovery. [Results]This 
paper proposes a basic framework of semantic retrieval system for scientific literature, and 
summarized the features of semantic retrieval systems for scientific literature. [Limitations] The 
lack of performance evaluation of semantic retrieval system.[Conclusions]It provides a good 
guide for developing a semantic retrieval system for the scientific literature. 
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1 引言 


语义 检索 是 信息 检索 的 发 展 趋势 ， 早 在 20 世纪 80 年 代 ， 语 义 检索 的 思想 就 
已 经 出 现 , 并 且 信 息 检索 领域 已 经 开展 了 相关 研究 工作 。 企业 级 的 语义 搜索 引擎 
近 几 年 已 经 开始 应 用 , 例如 Kosmix'、Cuil*、Hakia” 和 Powerset 等 , 特别 是 Wolfram 
Alpha^. Google Knowledge Graph’” 等 让 搜索 变 得 更 智慧 。 百 度 框 计算 “、 搜 狗 知 
立方 “代表 了 国内 搜索 引擎 在 该 领域 的 成 功 实践 。 在 文献 信息 检索 领域 ， 


”本 文系 国家 十 二 五 科技 支撑 项 目 课题 “信息 资源 自动 处 理 、 智 能 检索 与 STKOS 应 用 服务 集成 ”( 项 目 编 
号 : 2011BAH10B05) 和 “科技 知识 组 织 体系 共享 服务 平台 建设 ”( 项 目 编号 : 2011BAH10B03) 的 研究 成 
果 之 一 。 

http://www.kosmix.com 

http://www.cuil.pt 

http://www.hakia.com 

http://www.wolframalpha.com 

http://www.google.com.hk 

http://www.baidu.com 

http://www.sogou.com 
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GoPubMed 作 为 语义 检索 系统 的 典型 代表 ， 做 出 了 开创 性 的 工作 ， 一 些 面 向 科技 
文献 的 语义 检索 系统 不 断 出 现 。 

传统 的 基于 关键 词 的 检索 系统 具有 一 定 的 局 限 性 ， 如 无 法 解决 词汇 的 模糊 性 
问题 , 分 散在 多 个 文档 中 的 相关 信息 不 容易 被 发 现 等 。 语义 检索 基于 含义 而 不 是 
通过 关键 词 匹配 寻找 用 户 查询 的 答案 ,用 以 实现 实体 检索 、 概 念 检索 、 分 类 检索 、 
关系 查询 等 知识 检索 方式 来 满足 用 户 的 多 种 信息 需求 , 使 得 搜索 智能 化 , 根据 用 
户 的 意图 给 出 用 户 想 要 的 结果 。 目 前 , 语义 检索 主要 有 两 个 方向 : 语义 网 资源 的 
检索 和 对 于 传统 检索 系统 的 语义 扩展 。 面 向 科技 文献 的 语义 检索 研究 主要 偏向 于 
后 者 ， 利 用 语义 技术 改进 传统 文献 检索 系统 ， 利 用 叙 词 表 、 主 题词 表 、 本 体 等 知 
识 组 织 体系 实现 语义 丰富 化 ， 采 用 语义 标注 、 自 动 抽取 、 关 系 发 现 的 文本 挖掘 技 
术 从 非 结 构 化 的 文本 中 发 现 细 粒 度 的 数据 ,使 得 检索 系统 更 智能 化 。 本 文 根 据 文 
本 语义 处 理 程度 对 科技 文献 语义 检索 系统 进行 分 类 , 提出 科技 文献 语义 检索 系统 
的 基本 框架 ， 并 探讨 了 科技 文献 语义 检索 系统 的 功能 特性 。 
2 科技 文献 语义 检索 系统 分 类 

根据 系统 的 智能 化 、 语 义 化 程度 ， 将 现 有 科技 文献 语义 检索 系统 分 为 : 语义 
查询 扩展 的 检索 系统 、 以 概念 或 实体 为 中 心 的 检索 系统 、 以 关系 为 中 心 的 检索 系 
统 、 面 向 知识 发 现 的 检索 系统 4 种 类 型 。 这 4 类 检索 系统 对 科技 文献 的 文本 语义 
化 处 理 程度 不 同 ， 检 索 系 统 的 智能 化 和 语义 化 程度 也 有 所 不 同 ， 如 图 1 所 示 : 


智能 化 (语义 化 ) 
面向 知识 发 现 的 检索 系统 


关系 为 中 心 的 检索 系统 


概念 /实体 为 中 心 的 检索 系统 


语义 查询 扩展 的 检索 系统 
系统 分 类 文本 语义 化 处 理 程度 
图 1 科技 文献 语义 检索 系统 分 类 


2.1 语义 查询 扩展 的 检索 系统 

语义 查询 扩展 的 检索 系统 在 传统 关键 词 检索 基础 上 ， 对 检索 词 进行 处 理 ， 利 
用 受 控 词 表 和 本 体 对 检索 词 进行 扩展 。PubMed 趾 支持 薪 于 MesH 的 查询 扩展 ， 
也 有 利用 UMLS 的 同义词 对 PubMed 查询 进行 扩展 外，QuExTS! 执 行 面向 概念 的 
查询 扩展 ， 检 索 结 果 根 据 用 户 预 先 分 配给 概念 类 别 的 不 同 权 重 进行 排序 。 
GO2PUB 多 利用 基因 本 体 中 术语 之 间 的 语义 继承 对 PubMed 查询 进行 语义 扩展 ， 
基因 名 称 、 符 号 和 同义词 都 作为 额外 的 关键 词 提交 给 查询 处 理 器 。 
2. 2 以 概念 或 实体 为 中 心 的 检索 系统 

以 概念 或 实体 为 中 心 的 检索 系统 利用 本 体 、 主 题词 表 、 倒 词 表 等 对 科技 文献 
进行 语义 标注 , 识别 文献 中 的 知识 , 检索 过 程 通过 匹配 用 户 查 询 和 语义 标注 结果 
执行 ， 这 使 得 检索 系统 能 够 利用 标注 信息 查询 到 更 精确 的 结果 。GoPubMed5 是 
这 类 系统 中 最 典型 的 ， 它 利用 Gene 本 体 和 MeSH 标 引 PubMed 文献 ， 并 用 于 检 


索 结果 的 结构 化 展示 , 可 以 让 用 户 看 到 与 查询 相关 的 主要 的 生物 医学 概念 。 相 比 
PubMed 而 言 ，GoPubMed 可 以 更 快 地 找到 相关 的 检索 结果 。NextBiolo 文献 检索 
系统 利用 基于 本 体 的 语义 工具 和 创新 界面 ,能 够 对 ScienceDirect 内 容 和 PubMed, 
临床 实验 、 生 物 医学 新 闻 等 授权 开放 使 用 的 研究 数据 进行 文本 挖掘 ， 并 通过 自然 
语言 处 理 技术 实现 命名 实体 识别 和 消 歧 ， 从 而 提高 检索 性 能 。Kleio RAI 
本 的 语义 概念 (如 genes. protein 和 其 他 生物 医学 术语 ) 进行 标注 ， 提 供 对 于 
MEDLINE 的 文本 和 元 数据 相 结合 的 检索 ， 利 用 标注 的 命名 实体 类 型 对 检索 结果 
进行 分 面 从 而 实现 检索 结果 的 过 滤 。 
2. 3 以 关系 为 中 心 的 检索 系统 

以 关系 为 中 心 的 检索 系统 通过 文本 挖掘 技术 从 科技 文献 中 发 现 概念 或 实体 
之 间 的 关系 ， 能 够 提供 基于 关系 的 检索 服务 。Quertle 思 是 一 个 关系 驱动 的 生物 医 
学 文献 检索 工具 , 使 用 基于 语义 的 自然 语言 处 理 方法 从 生物 医学 文献 集中 抽取 主 
谓 宾 关 系 ， 发 现 生物 医学 实体 (如 疾病 、 基 因 、 药 物 ) 之 间 的 一 般 或 特殊 关系 。 
用 “咖啡 因 偏 头痛 ”作为 搜索 词 ，Quertle 会 发 现 两 个 检索 词 之 间 的 关系 如 “ 咖 
啡 因 治疗 偏 头 痛 ” 而 不 是 通常 搜索 PubMed 所 返回 的 同时 包含 “咖啡 因 ” 和 “ 偏 
头痛 ”两 个 检索 词 的 记录 。CoPub 呈 是 以 共 现 关系 为 中 心 的 检索 工具 ， 利 用 文本 
23 CURT UI PubMed 摘要 中 共 现 的 生物 医学 概念 ， 如 基因 本 体 中 的 人 类 / 鼠 基 
因 、 生 物 过 程 、 分 子 功能 、 细 胞 组 成 以 及 病理 、 疾 病 、 药 物 和 途径 等 。 在 CoPub 
系统 中 检索 某 个 生物 医学 概念 , 可 以 获得 与 其 共 现 的 其 他 生物 医学 概念 以 及 共同 
出 现 的 文摘 。PolySearcht9 抽 取 人 类 疾病 、 基 因 、 突 变 、 药 物 和 代谢 物 之 间 的 关 
系 , 利用 各 种 文本 挖掘 和 信息 检索 技术 对 内 容 摘 要 、 段 落 或 句子 进行 识别 和 排序 ， 
支持 面向 十 几 个 不 同类 型 的 文本 、 科 学 文摘 或 生物 信息 学 数据 库 的 五 十 多 种 查询 
类 型 ， 例 如 检索 “与 乳腺 癌 有 关 的 基因 ”。 
2.4 面向 知识 发 现 的 检索 系统 

面向 知识 发 现 的 检索 系统 用 以 发 现 隐 含 的 关系 和 知识 ， 为 用 户 提供 更 深层 次 
的 语义 检索 服务 .CoPub5.004 在 CoPub 共 现 关系 挖掘 的 基础 上 开发 了 称 为 CoPub 
Discovery 的 新 技术 ， 从 文献 中 挖掘 间接 关系 ， 用 于 研究 疾病 背后 的 机 理 、 连 接 
基因 和 途径 , 发 现 现 有 药物 的 新 型 应 用 等 。CoPub5.0 提供 了 三 种 分 析 模 式 , “term 
search" 模式 为 一 个 术语 检索 文摘 和 术语 关系 ,“pair search” 模 式 分 析 术 语 对 之 
间 的 已 知 关系 或 新 关系 ,“set terms” 模 式 给 出 多 个 术语 之 间 的 关系 。FACTA++62] 
从 MEDLINE 文摘 中 发 现 和 并 可 视 化 如 基因 、 疾 病 、 化 合 物 等 生物 医学 概念 之 间 
的 间接 关联 , 利用 机 器 学 习 模 型 发 现 文本 中 的 生物 分 子 事 件 , 利用 概念 之 间 的 共 
现 关系 统计 信息 挖掘 隐藏 的 关联 ,EvidenceFindert 中 实现 了 对 PMC 全 文 数据 从 化 
合 物 基因 、 和 蛋白 质 、 疾 病 等 生物 医学 实体 到 如 磷酸 化 、 绑 定 、 激 活 等 生物 相关 性 
事实 的 多 层次 文本 标注 。EvidenceFinder 将 标注 事实 转化 为 一 系列 的 问题 ， 作 为 
文献 检索 的 推荐 ， 帮 助 用 户 找到 问题 答案 对 应 的 文章 。 例 如 ， 输 入 检索 词 “ 粘 蛋 
白 ” 系统 自动 给 出 一 系列 相关 问题 ， 如 “降低 肠 道 烙 蛋 白 的 是 什么 ?”，“ 什 么 产 
EMEA? ”。 
3 科技 文献 语义 检索 系统 的 基本 框架 

根据 对 典型 科技 文献 语义 检索 系统 的 分 析 , 提出 系统 基本 框架 , 分 为 语义 知 
识 获取 、 数 据 集 成 与 融 汇 、 语 义 索 引 构 建 、 查 询 处 理 、 结 果 展 示 5 个 主要 的 系统 
功能 ， 如 图 2 所 示 。 首 先 实现 科技 文献 的 语义 丰富 化 ， 基 于 领域 叙 词 表 或 本 体 ， 
利用 语义 标注 、 实 体 抽 取 、 关 系 抽取 等 技术 从 科技 文献 文本 信息 中 获取 语义 知识 。 


以 这 些 语义 知识 为 基础 ， 借 助 实体 或 概念 匹配 、 本 体 集成 、Linked Data 之 间 的 
关联 实现 潜在 语义 知识 、 科 技 文 献 以 及 外 部 资源 的 数据 集成 与 融 汇 ,支持 细 粒 度 
的 语义 检索 以 及 相关 知识 的 扩展 检索 。 在 文献 元 数据 索引 的 基础 上 ， 构 建 实体 、 
概念 、 关 系 、 文 本 事实 依据 的 索引 , 支撑 基于 语义 的 检索 功能 。 在 查询 处 理 方面 ， 
采用 术语 匹配 、 自 然 语义 处 理 、 相 似 度 计算 、 知 识 库 的 图 遍历 、 本 体 推 理 等 技术 
手段 理解 用 户 的 搜索 意图 ,通过 基于 语义 知识 的 分 类 、 聚 类 、 排 序 等 对 检索 结果 
进行 重新 优化 计算 。 通 过 结果 列表 、 可 视 化 展示 、 分 面 浏览 、 树 形 导 航 、 本 体 导 
航 等 方式 将 检索 结果 展示 给 用 户 , 同时 提供 基于 语义 知识 的 相关 推荐 和 统计 预测 


等 功能 。 


术语 匹配 
推理 
索引 构建 
实体 /概念 索引 关系 索引 事实 索引 文献 索引 


linked data 关 联 


图 2 科技 文献 语义 检索 系统 的 基本 框架 
4 科技 文献 语义 检索 系统 的 功能 特点 


语义 信息 的 引入 影响 了 科技 文献 检索 系统 从 数据 处 理 、 索 引 构建 、 查 询 处 理 
到 结果 管理 的 各 个 方面 ， 使 得 检索 系统 具有 一 些 新 的 特性 。 
4. 1 科技 文献 语义 丰富 化 

在 传统 文献 标 引 的 基础 上 ， 一 些 文献 检索 系统 已 经 进行 了 深层 的 语义 丰富 化 
处 理 ， 并且 在 此 基础 上 提供 更 准确 的 检索 服务 。 例 如 ，ProQuest 在 文本 标 引 基础 
上 将 蕴含 在 学 术 出 版 物 中 的 表格 、 地 图 、 照 片 和 其 他 图 形 中 的 数据 、 变 量 以 及 其 
他 内 容 进行 深度 标 引 ， 平 均 使 用 8 个 术语 描述 一 个 图 像 。Wiley 的 Smart Article 技 
术 … 针 对 化 学 期 刊 新 增 了 化 合 物 索 引 ， 提 供 对 于 内 容 的 深层 检索 ， 此 外 对 文献 
中 的 化 学 术语 进行 标注 ， 使 用 不 同 颜色 对 不 同类 型 的 化 学 术语 进行 高 亮 显 示 ， 以 


5 http://search.proquest.com/ 


方便 用 户 阅读 。 在 医学 文献 检索 领域 , PubMed 使 用 MeSH 主 题词 表 进 行文 献 标 引 ， 
随 着 文本 挖掘 技术 的 成 熟 ， 一 些 工 具 和 系统 在 PubMed 基 础 上 对 科技 文献 进行 了 
更 为 深入 的 语义 丰富 化 处 理 ! 罩 。 例 如 ，EBIMedt 引 从 文献 中 抽取 蛋白 质 、 基 因 本 
体 标注 、 药 物 和 物种 ， 基 于 共 现 分 析 识 别 抽取 概念 之 间 的 关系 。PubTator 工 具 吕 7] 
支持 对 PubMed 检 索 结 果 的 标注 ， 识 别 的 生物 医学 实体 包括 基因 、 化 学 物质 、 疾 
病 、 变 异 、 物 种 等 。 
4. 2 基于 实体 和 概念 的 数据 集成 与 融合 

科技 文献 的 数据 集成 已 转变 为 以 实体 或 概念 为 中 心 的 数据 集成 和 融合 ， 实 现 
不 同 应 用 系统 之 间 的 语义 互 操作 ， 促 进 更 广泛 的 共享 与 应 用 。AGRIS 国际 农业 
科学 和 技术 信息 系统 利用 OKKAM 实体 名 称 系统 框架 0 创建 关联 数据 模型 ， 将 
书目 数据 库 转 换 为 关联 数据 服务 5 。 一 方面 ， 使 用 AGROVOC 叙 词 表 与 其 他 叙 
词 表 上 映射， 另 一 方面 将 书目 记录 与 外 部 资源 建立 连接 , 如 DBPedia、WordBank、 
Google Custom Search API、Nature OpenSearch 等 。 在 AGRIS 检索 结果 的 详细 页 
面 中 ,， 除 书目 信息 外 ,还 提供 相关 外 部 资源 的 结果 揭示 ,借助 于 文献 标 引 使 用 的 
AGROVOC 词汇 、 书 目 关 联 数据 等 实现 以 实体 和 概念 为 中 心 的 知识 页 面 之 间 的 
融 汇 。Elsevier 提出 Smart Content 的 概念 CL， 组 织 医 学 专家 在 UMLS 基础 上 构 
Æ EMMeT 医学 词汇 分 类 体系 ， 将 Elsevier 的 临床 医学 期 刊 、 论 文 、 书 目 章 节 、 
表格 、 图 像 等 数据 映射 到 合适 的 医学 术语 上 ， 从 而 加 强 对 Content 的 理解 ， 使 其 
提升 到 实体 、 概 念 和 关系 的 知识 层面 上 ,以 便于 各 类 应 用 程序 更 好 地 理解 和 处 理 
内 容 上 的 内 涵 信 息 。 
4.3 面 向 文本 分 析 结 果 的 索引 机 人 制 

为 实现 对 于 文本 分 析 结 果 的 检索 ， 语 义 检索 系统 构建 了 文本 中 概念 、 实 体 、 
关系 、 事 实 与 文献 之 间 的 索引 。 例 如 ，Kleio 系统 应 用 Lucene 对 识别 出 来 的 蛋白 
质 、 基 因 、 代 谢 物 和 医学 术语 构建 索引 ， 即 对 与 文本 相关 的 概念 构建 索引 ， 而 不 
是 个 体 或 规范 词 形式 ， 这 意味 着 系统 可 以 检索 与 某 个 指定 概念 相关 的 文档 , 无 论 
概念 的 表现 形式 是 它 的 拼写 变 体 还 是 缩写 形式 中 。EvidenceFinder 系统 03 借 助 基 
因 、 和 蛋白 质 、 药 物 、 疾 病 和 代谢 物 的 词 表 以 及 表示 生物 医学 过 程 和 关系 的 词典 ， 
对 全 文 数据 进行 语法 分 析 和 文本 挖 气 ， 对 Europe PMC 仓储 中 的 全 文 数 据 中 的 所 
有 可 能 包含 相关 事实 的 句子 构建 索引 .NLMplusP20 使 用 Solr 对 语义 层 进行 索引 ， 
支撑 检索 服务 。 而 Quertle 中 建立 了 语义 关系 索引 、 关键 词 索引 和 辅助 索引 三 种 索 
引 ， 对 用 户 输入 的 检索 词 和 提问 进行 查找 ， 并 返回 检索 结果 。 
4.4 查询 处 理 
由 于 一 个 搜索 请 求 可 能 代表 多 重 含义 ， 对 用 户 输入 的 检索 词 进行 语义 分 析 是 
语义 检索 系统 的 首要 任务 。 通常 , 语义 检索 系统 从 用 户 输入 字符 开始 提供 自动 完 
成 功能 ， 对 用 户 输入 的 检索 词 和 语句 进行 识别 和 分 析 , 给 出 相关 的 查询 建议 , 通 
过 理解 用 户 查 询 意 图 和 搜索 空间 的 含义 改进 检索 质量 。 

GOD 基于 受 控 词 表 和 本 体 的 自动 完成 功能 

目前 ， 搜 索引 擎 大 多 数 都 具有 自动 完成 功能 ， 利 用 预存 的 术语 自动 将 用 户 的 
检索 词 对 应 到 可 能 匹配 术语 上 并 提示 给 用 户 , 简化 用 户 输入 操作 。 文献 检索 系统 
通常 利用 受 控 词 表 和 本 体 实现 自动 完成 功能 ，GoPubMed" 将 输入 的 术语 匹配 
MeSH 和 Gene 本 体 术语 ，Semedicot*“ 将 查询 建议 放 在 分 类 树 中 允许 用 户 选 择 一 个 
广义 术语 作为 检索 词 , 在 括号 中 列 出 其 同义词 ; NextBiolg 可 以 列 出 匹配 的 基因 、 
化 合 物 、SNPs、 疾 病 、 组 织 、 生 物 学 团体 和 作者 等 ，Elsevier 的 ClinicalKey 医 学 


言 息 平台 "在 用 户 输 入 检索 词 后 提供 检索 建议 ， 如 相关 医学 主题 、 内 容 来 源 和 作 
者 等 。 
(2) 查询 分 析 
检索 系统 在 执行 查询 前 ， 采 用 语言 学 方法 将 用 户 输入 的 检索 词 映 射 到 受 探 词 
表 或 本 体 的 概念 、 实 体 上 ， 将 关键 词 检索 转化 为 概念 或 实体 的 检索 。 利 用 受 控 词 
表 的 同 义 、 广 义 、 窗 义 等 术语 以 及 基于 本 体 上 下 位 关系 实现 查询 的 逻辑 推理 ， 用 
于 解释 用 户 的 查询 , 并 给 出 查询 建议 。Kleio 系统 将 摘要 中 命名 实体 进一步 分 类 ， 
结合 着 语义 分 类 信息 执行 查询 ， 可 以 降低 搜索 空间 ， 提 高 检索 效率 中 。 一 些 文献 
仿 索 系统 允许 用 户 使 用 自然 语言 进行 提问 ， 如 Quertle、EvidenceFinder 等 ， 在 执 
行 查询 处 理 前 , 需要 对 查询 语句 进行 预 处 理 , 利用 自然 语言 处 理 技术 将 查询 语句 
进行 重 构 。NLMPplust20 使 用 叙 词 表 和 本 体 对 PubMed Review 进行 语义 标 引 ， 利 
用 构建 的 知识 库 对 查询 进行 分 析 和 解析 ， 以 检索 到 更 精确 的 结果 。iPubMedP3l 
提供 了 一 个 交互 式 检索 界面 ， 当 用 户 在 搜索 框 中 输入 几 个 字符 时 ， 系 统 将 立即 显 
示 任 何 包含 这 些 字符 的 引用 , 便于 用 户 缩小 搜索 目标 ,此 外 该 系统 还 允许 小 的 拼 
写 错误 。ClinicalKey 通过 EMMeT 建立 关系 的 语义 框架 , 促进 了 内 容 发 现 ， 使 得 
被 传统 关键 词 检索 忽略 的 潜在 关联 能 够 被 揭示 出 来 ， 并 且 保 证 了 ClinicalKey 能 
够 为 用 户 的 检索 请 求 提 供 有 具体 并 且 有 针对 性 的 答案 ， 比 如 查找 “myocardial 
infarction", ClinicalKey 智能 检索 可 以 识别 其 缩 略 词 、 同 义 词 、 相 关外 科 手 术 和 
治疗 药物 ， 并 且 知 道 这 是 一 种 与 高 胆固醇 相关 的 心血 管 疾病 。 
4.5 查询 结果 管理 
在 传统 文献 检索 系统 的 基础 上 , 语义 检索 系统 对 于 查询 结果 的 呈现 方式 更 加 
ARE, 表达 的 信息 也 更 加 丰富 ， 基 于 本 体 的 结果 精炼 、 知 识 导 航 等 为 用 户 带 来 了 
新 的 检索 体验 。 
GOD 查询 结果 呈现 方式 
语义 检索 系统 为 用 户 提 供 了 最 直接 的 结果 呈现 方式 ， 如 检索 的 目标 概念 〈 实 
体 )、 关 系 、 事 实 、 回 答 等 信息 。GoPubMed 中 在 文献 结果 列表 中 只 显示 文摘 中 与 
检索 目标 相关 的 句子 ， 反 映 检 索 词 的 事实 ， 而 不 是 全 部 摘要 信息 。Quertlela 同 样 
显示 文摘 中 相关 的 事实 信息 ， 并 对 检索 目标 进行 高 亮 显 示 。EFACTA++02 将 与 查 
询 目标 相关 的 概念 通过 不 同 分 类 列表 的 方式 显示 ， 并 可 以 按照 相关 的 频次 排序 。 
CoPub 中 返回 查询 术语 的 详细 信息 、 共 现 术 语 的 分 类 和 文摘 数量 。 
EvidenceFinderD3 在 文献 检索 列表 中 直接 给 出 查询 问题 的 答案 并 高 亮 显示 。 
(20 概念 /实体 层级 结构 分 类 与 导航 
GoPubMedi5 通 过 本 体 的 层级 结构 对 查询 结果 进行 聚集 ， 实 现 了 大 规模 结果 
的 快速 导航 ,用 户 可 以 快速 获取 相关 的 生物 医学 概念 ， 同 时 可 以 在 检索 中 发 现 新 
的 检索 目标 或 过 滤 检 索 条 件 ， 使 得 检索 更 有 深度 和 广度 。NextBiol9 将 从 摘要 和 
正文 中 抽取 的 生物 医学 术语 ， 以 Tag 云 的 方式 显示 ， 并 提供 了 这 些 术语 的 分 类 ， 
可 以 利用 它们 进一步 过 滤 和 优化 查询 结果 。Kleio[” 将 检索 结果 根据 文献 标注 命名 
实体 的 语义 分 类 进行 组 织 , 并列 出 最 高 关联 频率 的 概念 ,方便 用 户 浏 览 和 过 滤 检 
索 结 果 。ClinicalKey 允许 用 户 根 据 有 临床 意义 的 子 分 类 往 选 检索 结果 ,比如 内 容 
类 型 、 专 科 、 奖 病名 称 、 身 体 部 位 等 1。 
(3) 文本 挖掘 结果 显示 与 相关 知识 导航 
在 结果 页 面 或 文献 详细 页 面 对 语 义 标 注 结果 进行 呈现 ， 并 提供 相关 知识 的 简 
介 、 链 接 与 导航 ， 例 如 GoPubMed' 在 标注 概念 下 方 用 虚线 标记 ， 点 击 后 可 实现 


https://www.clinicalkey.com/ 


对 标注 概念 的 重新 检索 和 二 次 检索 ， 以 及 直接 给 出 标注 概念 的 详细 信息 、 
Wikipedia 链 接 。EvidenceFinder 系 统 D3 在 文献 详细 页 面 将 识别 的 生物 实体 统计 情 
况 以 图 形 化 的 方式 显示 ， 并 根据 不 同 的 类 型 分 别 列 出 ,点 击 标注 实体 可 以 直接 链 
接 到 UniProtKB” 的 相关 检索 界面 , 查看 相关 信息 。ClinicalKey 平 台 在 检索 结果 页 
面 提供 文献 摘要 的 预览 窗口 ， 同 时 对 语义 标注 的 结果 进行 展示 ， 并 且 提 供 2 000 
多 个 疾病 主题 页 ， 可 以 快速 访问 疾病 的 流行 病 学 、 风 险 因 素 、 临 床 表 现 、 治 疗 等 
方面 的 信息 ， 以 及 与 特定 专科 相关 的 答案 和 药物 链接 PC 。 

(4) 基于 概念 /实体 的 文献 统计 分 析 

通过 对 文献 的 文本 挖掘 , 语义 检索 系统 可 以 实现 基于 概念 /实体 而 不 是 关键 词 
等 元 数据 信息 的 文献 统计 分 析 功 能 。 例 如 ， 在 GoPubMedP F & E rx c fu] S 
的 概念 或 文本 标注 概念 都 可 以 看 到 该 概念 相关 文献 的 时 间 轴 , 不 仅 可 以 展示 相关 
文献 的 演化 过 程 ， 也 可 以 预测 其 发 展 趋势 。 


5 结语 


科技 文献 语义 检索 系统 相 比 传统 检索 系统 ， 其 优势 在 于 能 够 处 理 语义 信息 ， 
从 非 结构 化 文本 中 发 现 潜 在 知识 ， 实 现 知识 检索 ,满足 用 户 更 高 的 检索 需求 。 通 
过 研究 和 分 析 现 有 科技 文献 语义 检索 系统 可 以 发 现 系统 的 语义 化 程度 依赖 于 对 
文献 的 语义 挖掘 深度 ， 借 助 现 有 的 文本 挖掘 、 自 然 语 言 处 理 、 语 义 网 等 技术 以 及 
受 控 词 表 和 本 体 , 在 很 大 程度 上 实现 了 对 指定 信息 的 挖掘 和 发 现 ,然而 由 于 受 控 
词 表 和 本 体 的 领域 局 限 性 和 履 盖 率 问 题 , 科技 文献 语义 检索 系统 的 研究 主要 集中 
在 生物 医学 领域 ， 而 在 科技 文献 检索 领域 实现 通用 的 语义 检索 仍然 困难 重重 。 
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